京东数据中心设施运维管理(三)

您所在的位置:网站首页 京东 数据中心 京东数据中心设施运维管理(三)

京东数据中心设施运维管理(三)

2024-06-06 04:57| 来源: 网络整理| 查看: 265

640?wx_fmt=gif

10.1. 京东云华东数据中心设施运维管理

随着大数据、云计算、智慧城市、移动互联网和物联网等应用的快速发展,各行各业对于数据中心的需求量越来越大。数据中心单体规模越大、系统越复杂,其脆弱性也越高,对于数据中心运行维护管理水平的要求也就越高。

数据中心运维管理的范围很广泛,也是数据中心生命周期中最长的一个阶段,主要包括基础设施、各种IT设备、信息与数据、应用软件等。运维管理的好坏很大程度上决定了数据中心的使用寿命。本章主要介绍京东云华东数据中心在基础设施运维管理方面所做的努力。

数据中心设施运维管理是为了确保数据中心基础设施为电子信息系统提供稳定可靠的运行环境,确保电子信息系统和其支持系统能够安全、稳定、可靠、持续并高能效地运行,实现运行维护的及时性、规范性、安全性和可用性。

10.1.1. 京东云华东数据中心设施运维管理的目标和内容

京东云华东数据中心设施运维管理核心团队组建于数据中心建设初期,其主要的专业技术管理人员都深度参与了整个数据中心园区的工程建设以及测试验证等重要阶段,对数据中心从无到有的过程都非常熟悉。在数据中心交付之前,他们就已经了解这个数据中心基础设施系统的构成,掌握所有设计、施工、变更、整改的技术文档和测试数据,知道哪些部分是此后运维工作需要特别关注的薄弱点。

设施运维管理的基本目标包括:

1) 对与信息系统服务有关的数据中心各项管理对象进行系统地计划、组织、协调与控制。

2) 依托于已交付的基础设施,通过科学的管理,最终使数据中心得以实现服务与经济上的目标。

“三分技术,七分管理”。大量的事实表明,数据中心运行的好与差,评判标准很大程度上是由管理水平的高低所决定的。一个数据中心即便采用了最新的技术,如果运维管理不当,一定不是一个好的数据中心。一个好的数据中心会通过科学的运维管理,充分利用本身现有的技术和设备,将运行成本降到最低,而使能源利用最大化。

京东云华东数据中心设施运维管理还有一个非常重要的目标是“建立一套持续改进的机制”,这点往往容易被人们忽略。数据中心设施运维管理与数据中心设施系统建设阶段的项目管理有很大的不同。项目管理是一次性的,必须保障“当前最佳”,因为没有机会推倒重来;而数据中心运维管理是一个不断循环迭代的过程。“一套持续改进的机制”可以保障数据中心运行效率不断提高、运行成本不断降低。数据中心的设施运维工作是一个不断改善的过程,正所谓“没有最好,只有更好”。

所谓运行,是指对数据中心设施系统与设备进行日常地启停控制、参数设置、状态监控和优化调节,以确保电子信息系统和设施系统自身获得安全、高效的运行环境。

所谓维护,是指为保证数据中心设施系统与设备具备正常运行所需要的条件,达到提高可靠性、排除隐患、延长寿命期等目的所进行的工作,包括定期巡检、检测、维护和保养等。

设施运行维护对象应包括如下系统:

电气系统

高压配电设备

电力变压器

低压配电设备

不间断电源系统,UPS和电池

 配电列头柜

 柴油发电系统

防雷接地系统

照明设备

电缆和母线槽

暖通系统

冷源系统

精密空调

水管路系统

通风设备

 风管路系统

智能化系统

 出入口控制系统

入侵报警系统

视频监控系统

电子巡更系统

环境监控系统

设备监控系统

消防系统

消防供配电设施

火灾自动报警系统

消防供水设施及消火栓系统

自动灭火系统

防排烟系统

防火分隔设置

应急照明与疏散指示系统

应急广播系统

消防专用电话

建筑灭火器

 

10.1.2. 京东云华东数据中心设施运维管理制度

1.人员管理

人是数据中心设施运维管理的基础,也是管理的核心。京东云华东数据中心的设施运维团队按照工作内容划分为以下两个主要职能:

运维巡检团队:实行7×24小时轮岗工作制,对基础设备设施进行巡检,担任值班工作,第一时间发现故障或问题,并作为管理程序的执行者。主要包括电工、管道工、制冷工等,各个工种的技术员均持证上岗,协同作业。

技术管理团队:对数据中心场地基础设施提供运维技术支持,解决技术问题,承担数据中心场地基础设施一般性的优化改造工程的项目管理工作,即运维管理核心团队,包括运维经理以及暖通、电气、智能化等专业的技术人员。

此外,运维团队还定期组织技术交流分享会,在提升大家实战技能的同时,促进员工之间互相学习。

2.设施管理

1) 设备台账制度

给每个独立的数据中心模块建立完整并实时更新的设备台账。台账包括所有关键基础设施设备的清单,并完整记录这些设备设施的运行情况、事件情况、变更情况、维护保养频次等信息。

对影响安全运行的关键设备,如UPS、冷水机组、精密空调等的设定参数以及关键点的报警阀值制定了统一管理制度,结合数据中心实际运行情况经技术讨论后按统一参数值设定,运维巡检人员不可以随意修改。

2) 预防性维护计划

为延长设备的使用寿命,减少设备故障的概率,必须对所有设备设施进行有计划地维护。通过定期检查和保养,是设备设施的某些缺陷或隐患在变得更严重之前被发现。

运维团队根据不同系统的设备情况与供应商充分沟通,按照供应商的建议提前制定年度、季度、月度预防性维护计划。运维人员按照各设备系统的特性、维护流程及规范,及时、完整地落实维护工作,并形成客观实际的记录和报告存档。此外,运维团队还定期对设备运行状态的数据进行统计和趋势量化分析,对于异常的趋势,及时作出报警和相关预案。

3) 维修工单制度

运维人员在接到工单时,能明确获悉工作任务与注意事项,提前熟悉操作流程,做到心中有数;在维修操作过程中,工单也可以起到指导操作的作用;在维修工作结束交单、备案归档。如在维修过程中遇到困难,亦可以向技术管理层及时反馈,做到闭环控制。

4) 操作流程



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3